[Obsoleto] Compleciones de chat en streaming para el uso del SDK generado

Autorizaciones

Authorization

string

header

requerido

Gateway auth: send Authorization: Bearer <mka1-api-key>. For multi-user server-side integrations, you can also send X-On-Behalf-Of: <external-user-id>.

Encabezados

X-On-Behalf-Of

string

Optional external end-user identifier forwarded by the API gateway.

Cuerpo

application/json

Parámetros de solicitud para crear una finalización de chat. Basado en la API de Finalizaciones de Chat de OpenAI.

model

string

requerido

ID del modelo a usar. Puedes utilizar el formato proveedor:model o simplemente el nombre del modelo con un proveedor predeterminado.

Minimum string length: 1

messages

object[]

requerido

Una lista de mensajes que comprende la conversación hasta ahora. Se requiere al menos un mensaje.

Minimum array length: 1

Show child attributes

tools

object[]

Una lista de herramientas que el modelo puede llamar. Utiliza esto para proporcionar definiciones de funciones que el modelo puede invocar.

Show child attributes

tool_choice

Controles qué herramienta (si es que hay alguna) es llamada por el modelo. 'ninguna' significa que el modelo no llamará a ninguna herramienta. 'automático' significa que el modelo puede elegir. 'requerido' fuerza una llamada a la herramienta.

stream

boolean

Si se establece, los deltas de mensajes parciales se enviarán como eventos enviados por el servidor. Nota: Este campo es ignorado por el punto final de transmisión, utilizado solo por los puntos finales de clientes compatibles con OpenAI.

integer

Cuántas opciones de finalización de chat generar para cada mensaje de entrada. El valor predeterminado es 1.

Rango requerido: 1 <= x <= 9007199254740991

max_tokens

integer

El número máximo de tokens que se pueden generar en la finalización del chat. La longitud total de los tokens de entrada y los tokens generados está limitada por la longitud del contexto del modelo.

Rango requerido: 1 <= x <= 9007199254740991

temperature

number

¿Qué temperatura de muestreo utilizar, entre 0 y 2? Valores más altos como 0.8 harán que la salida sea más aleatoria, mientras que valores más bajos como 0.2 la harán más enfocada y determinista.

Rango requerido: 0 <= x <= 2

top_p

number

Una alternativa al muestreo con temperatura, llamada muestreo de núcleo, donde el modelo considera los resultados de los tokens con masa de probabilidad top_p. Así que 0.1 significa que solo se consideran los tokens que comprenden el 10% superior de la masa de probabilidad.

Rango requerido: 0 <= x <= 1

frequency_penalty

number

Número entre -2.0 y 2.0. Los valores positivos penalizan nuevos tokens en función de su frecuencia existente en el texto hasta ahora, disminuyendo la probabilidad del modelo de repetir la misma línea de forma literal.

presence_penalty

number

Número entre -2.0 y 2.0. Los valores positivos penalizan nuevos tokens según si aparecen en el texto hasta ahora, aumentando la probabilidad del modelo de hablar sobre nuevos temas.

seed

integer

Si se especifica, el sistema hará un esfuerzo por muestrear de manera determinista. No se garantiza el determinismo, pero la misma semilla debería devolver típicamente resultados similares.

Rango requerido: -9007199254740991 <= x <= 9007199254740991

stop

Hasta 4 secuencias donde la API dejará de generar más tokens. El texto devuelto no contendrá la secuencia de parada.

response_format

object

Un objeto que especifica el formato que el modelo debe generar. Establecer en { 'type': 'json_object' } activa el modo JSON.

Show child attributes

logprobs

boolean

Si se deben devolver las probabilidades logarítmicas de los tokens de salida. Si es verdadero, devuelve las probabilidades logarítmicas de cada token de salida devuelto en el contenido del mensaje.

top_logprobs

integer

Un entero entre 0 y 20 que especifica el número de tokens más probables a devolver en cada posición de token, cada uno con una probabilidad logarítmica asociada. logprobs debe estar configurado como verdadero si se utiliza este parámetro.

Rango requerido: 0 <= x <= 20

user

string

Un identificador único que representa a su usuario final, lo que puede ayudar a monitorear y detectar abusos. También se utiliza para el seguimiento de uso y análisis.

stream_options

object

Opciones para la respuesta de streaming. Solo establece esto cuando configures stream: true.

Show child attributes

parallel_tool_calls

boolean

predeterminado:true

Si habilitar la llamada a funciones en paralelo durante el uso de la herramienta.

reasoning_effort

enum<string> | null

Restringe el esfuerzo en el razonamiento para los modelos de razonamiento. Un esfuerzo menor resulta en respuestas más rápidas y menos tokens de razonamiento. Valores soportados: 'ninguno', 'mínimo', 'bajo', 'medio', 'alto', 'muy alto' o nulo.

Opciones disponibles:

none,

minimal,

low,

medium,

high,

xhigh

auto_routing

boolean

Cuando es verdadero, la puerta de enlace analiza la complejidad de la solicitud y enruta automáticamente entre variantes cuantizadas, MoE y densas de la familia de modelos solicitada.

Respuesta

200 - text/event-stream

Está bien

Option 1
Option 2
Option 3

event

any

requerido

data

object

requerido

Representa un fragmento transmitido de una respuesta de finalización de chat

Show child attributes

string

retry

integer

Responses API

Agents API

Platform APIs

Administration

Search Service API

Sandbox API

Deprecated

Other

[Obsoleto] Compleciones de chat en streaming para el uso del SDK generado

Autorizaciones

Encabezados

Cuerpo

Respuesta

Responses API

Agents API

Platform APIs

Administration

Search Service API

Sandbox API

Deprecated

Other

Documentation Index

Autorizaciones

Encabezados

Cuerpo

Respuesta